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摘 要 : [目的 /意义 ] 选 取 国内 外 15 家 科学 数据 中 心 的 科学 数据 质量 评价 指标 , 旨 在 筛选 能 够 客观 反映 科学 数据 质量 的 
共性 指标 ,构建 具有 普 适 性 的 科学 数据 质量 评价 指标 体系 。[ 方法 “过程 ] 采 用 文案 调查 法 、 网 络 调查 法 和 内 容 分 
析 法 ,对 15 家 科学 数据 中 心 的 科学 数据 评价 指标 进行 梳理 和 分 析 , 了 解 现 有 的 科学 数据 机 构 的 数据 评价 指标 。 
[ 结果 /结论 ] 基 于 科学 数据 生命 周期 管理 的 各 个 阶段 构建 一 套 由 数据 管理 计划 、 数 据 收 集 管理 数据 分 析 与 加 工 

TF 管理 数据 保存 管理 和 数据 共享 利用 管理 5 个 维度 组 成 的 科学 数据 质量 评价 指标 模型 ,为 我 国 和 地 方 科学 数据 中 

六 ”” 心 建立 面向 决策 的 科学 数据 中 心 评价 系统 提供 参考 。 
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当今 社会 , 随 着 科学 研究 的 不 断 发 展 ,科学 数据 的 | 较 少 ,科学 数据 的 评价 缺乏 统一 的 标准 。 本 文通 过 调 
变 得 越 来 越 庞大 ,结构 也 越 来 越 复杂 。 科 学 数据 | 研 国内 外 科学 数据 机 构 的 科学 数据 质量 评价 指标 , 斌 
民有 有 巨大 的 科研 价值 ,对 科学 数据 的 研究 成 为 科学 研 “| 从 科学 数据 生命 周期 管理 视角 建立 科学 数据 质量 评价 
人 汐 重 中 之 重 。 科 学 数据 的 评价 是 科学 数据 管理 和 服 | 模型 ,以 期 能 为 国内 科学 数据 评价 的 相关 研究 和 工作 
务 禹 构 都 要 重视 的 关键 环节 。 国 外 科学 数据 机 构 在 评 | 提供 参考 。 

价 老 面 已 经 做 了 大 量 工作 ,部 分 经 验 值得 国内 科学 数 a 0 
据 留 心 借鉴 。 例 如 美国 国家 海洋 和 大 气管 理 局 的 信息 1 国内 外 科 等 数 据 唐 量 评价 研究 现状 
质量 指南 中 提出 了 可 用 性 、 客 观 性 ,完整 性 ,影响 力 , 透 | 1.1 国外 研究 现状 

明 融 .再 生性 等 指标 和 这 些 指标 的 使 用 范围 ”1 ;荷兰 数 从 广义 的 数据 质量 来 看 ,国外 学 者 对 数据 质量 评 
据 存档 和 网 络 服务 (Data Archiving and Networked Serv- | 价 关注 得 较 多 ,构建 了 众多 的 数据 质量 评价 模型 :如 
ices,DANS) 对 其 在 线 存储 系统 上 的 数据 集 进行 评估 ， | B. Stvilia 等 从 内 在 信息 质量 ,情境 信息 质量 及 信誉 信 
评估 指标 有 可 发 现 性 (findability ) .可 达 性 (aceessibili- | 息 质量 3 个 维度 出 发 构建 信息 质量 评价 模型 ;C. Ba- 
by) . 互 操作 性 (interoperability ) ,可 重用 性 (reusabili- | tini 等 提出 基于 方法 论 的 数据 质量 维度 ,包括 完整 性 、 
y) ,这 也 是 科学 数据 管理 中 的 FAIR 准则 外。 我 国 | 准确 性 、 及 时 性 一 致 性 .可 访问 性 .可 信 性 ,可 用 性 可 
2008 年 开始 要 求 国家 项 目 产 生 的 科学 数据 进行 汇 交 ， 解释 性 和 适当 的 数据 量 等 ;A. Zaveri 等 构建 了 18 个 
相继 出 台 了 各 种 项 目的 科学 数据 汇 交 办 法 内。2018 | 不 同 的 数据 质量 维度 来 评价 关联 数据 ,并 将 这 些 数据 
年 国务 院 出 台 的 《科学 数据 管理 办 法 》 更 体现 出 国家 | 质量 维度 分 为 4 组 :可 访问 性 维度 .情境 维度 ,本 征 维 
对 科学 数据 这 一 战略 资源 的 重视 。 制 定 合理 的 科学 数 | 度 、 表 征 维度 ""。 有 部 分 学 者 构建 了 针对 某 一 学 科 领 
据 质量 评价 指标 体系 能 够 促进 我 国 国家 和 地 方 科学 数 | 域 的 科学 数据 质量 评价 模型 :如 M，G. Kahn 等 构建 了 
据 中 心 建设 ,有 利于 我 国 逐 步 建设 知名 的 科学 数据 评 | 针对 电子 健康 记录 临床 研究 数据 的 质量 评价 模型 ,该 
价 研究 中 心 。 但 目前 国内 对 科学 数据 的 评价 方面 研究 | 模型 主要 指标 有 准确 性 、 可 信 性 、 客 观 性 、 及 时 性 和 数 
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据 量 的 合理 性 ”;H. Chen 等 构建 了 3 个 维度 的 数据 质 
量 评价 模型 来 评估 公共 卫生 领域 相关 数据 ,这 3 个 维 
度 分 别 是 数据 本 身 .数据 使 用 和 数据 收集 过 程 ;H. 
Huang 等 在 前 人 数据 质量 评价 标准 的 基础 上 提出 了 基 
因 组 注释 环境 中 适用 的 数据 质量 标准 "" 。 调 研发 现 ， 
不 同学 者 提出 的 数据 质量 维度 虽然 繁多 ,但 有 交叉 重 
复 的 内 容 。 当 评价 某 一 种 具体 科学 数据 时 ,在 不 同 的 
使 用 情境 中 ,数据 质量 的 维度 具有 不 同 的 优先 顺序 。 
现 阶段 学 者 们 多 是 关注 某 一 学 科 领 域 的 数据 或 技术 平 
台 的 评价 研究 。 

1.2 国内 研究 现状 

国内 已 有 不 少 对 数据 的 评价 研究 ,其 中 涉及 政府 
开放 数据 的 评价 居多 ,例如 邵 艳 红 根据 已 有 的 评价 指 
标 和 数据 质量 标准 构建 政府 开放 数据 质量 评价 标 
准 2 , 李 晓 彤 等 在 北京 广州 和 哈尔滨 三 市 超过 1 900 
个 数据 集 的 质量 问题 调查 的 基础 上 , 提炼 出 7 个 质量 
继 亩 和 可 度量 的 评价 指标 ,分 别 是 完整 性 时 效 性 、 一 
玛 柄 .准确 性 .唯一 性 .可 理解 性 和 开放 性 "”。 有 不 少 
学者 关注 科学 数据 平台 建设 的 评价 ,如 刘 桂 锋 等 分 析 
了 EB 个 国际 组 织 开放 政府 数据 的 评估 项 目 ,提取 出 适 
二 科学 数据 平台 的 指标 ,从 平台 建设 基础 平台 管理 
若 纺 .平台 数据 及 平台 效果 与 影响 4 个 方面 构建 科学 
壮 氟 平台 评价 指标 体系 ,并 在 指标 体系 中 结合 了 数据 
生 但 周 期 理论 来 构建 二 级 指标 '” ; 周 宇 等 通过 调研 国 
肉 关 数据 监护 平台 ,并 采用 专家 调查 法 ,最 终 确 定 了 数 
据 监 护 平台 的 评价 指标 体系 ,包含 数据 管理 制度 .服务 
功能 ,数据 量 数据 质量 平台 界面 软件 系统 及 利用 率 
等 维度 "1 。 除了 关注 科学 数据 平台 的 评价 之 外 ,有 些 
研究 者 关注 数据 质量 本 身 的 评价 ,如 余 芳 东 从 数据 源 
条 件 .元 数据 .数据 质量 3 个 方面 构建 指标 框架 来 评价 
政府 统计 数据 中 的 非 传统 数据 "” ; 余 厚 强 等 通过 梳理 
蔡 代 计量 数据 生产 流程 ,构建 了 替代 计量 数据 质量 评 
佑 体系 。 国 内 对 科学 数据 质量 评价 的 研究 内 容 较 
少 。 目 前 ,国内 科学 数据 机 构 出 台 的 关于 科学 数据 质 
量 的 评估 体系 几乎 只 涉及 准确 性 、 完 整 性 和 可 用 性 等 
宽泛 的 指标 。 本 文 试图 在 考虑 数据 生命 周期 的 基础 
上 ,通过 调研 不 同学 科 领 域 的 科学 数据 机 构 ,构建 适用 
于 科学 数据 管理 生命 周期 的 不 同 阶段 的 质量 评价 模 


型 。 
2 研究 方法 


马 费 成 和 望 俊 成 认为 ,生命 周期 方法 适用 的 对 象 
应 该 具备 3 个 重要 的 属性 一 一 连续 性 ,不 可 逆转 性 和 


迭代 性 ” ,生命 过 程 的 不 同 阶段 之 间 不 仅 具备 连续 性 ， 
而 且 具 备 时 间 上 的 不 可 逆转 性 ,完成 一 次 生命 进程 后 ， 
会 进入 下 一 轮 生 命 进 程 ,两 轮 之 间 的 更 迭 也 就 是 迭代 
或 循环 。 根 据 这 一 理论 , 丁 宁 等 提出 生命 周期 方法 
也 可 适用 于 科学 数据 中 ,科学 数据 生命 周期 与 科研 流 
程 密切 相关 ,科学 数据 生命 周期 管理 的 本 质 是 依据 科 
研 工作 流程 管理 数据 。 不 同 的 科研 活动 可 能 只 包 
含 科学 数据 生命 周期 中 的 部 分 阶段 ,例如 一 个 主要 关 
注 数据 处 理 和 分 析 的 科研 项 目 可 能 会 绕 过 数据 产生 、 
采集 等 阶段 ”。 从 科学 数据 生命 周期 管理 的 视角 来 
分 析 数 据 评价 指标 ,能 够 在 指标 体系 中 更 明显 地 体现 
出 依据 科研 流程 进行 科学 数据 管理 的 特征 ,有 利于 更 
有 效 地 进行 科学 数据 生命 周期 管理 。 张 洋 和 肖 燕 珠 通 
过 对 10 种 数据 生命 周期 理论 进行 调研 分 析 ,总 结 出 了 
科学 数据 生命 周期 管理 的 5 个 核心 阶段 ,分 别 是 制定 
数据 管理 计划 .数据 收集 管理 、 数 据 分 析 与 加 工 管理 、 
数据 保存 管理 数据 共享 与 利用 管理 ”。 本 文 以 科学 
数据 生命 周期 管理 的 5 个 阶段 作为 维度 ,从 这 5 个 阶 
段 来 分 析 科学 数据 的 具体 评价 指标 。 

本 文采 用 文案 调查 法 .网 络 调查 法 和 内 容 分 析 法 ， 
在 进行 广泛 的 网 络 调研 的 基础 上 ,选取 了 15 家 有 明确 
提出 指标 的 数据 机 构 ( 见 表 1) ,主要 分 布 于 美国 .欧洲 
以 及 中 国 。 调 研 过 程 中 笔者 主要 关注 该 数据 机 构 在 科 
学 数据 管理 计划 数据 收集 管理 .数据 分 析 与 加 工 管 
理 ,数据 保存 管理 数据 共享 与 利用 管理 5 个 阶段 的 评 
价 指标 。 这 15 个 数据 机 构 的 科学 数据 内 容 涉 及 地 理 、 
生物 医药 卫生 ,社会 ,经济 以 及 其 他 自然 科学 领域 ,内 
容 比较 全 面 。 有些 数据 机 构 的 数据 资源 集中 在 一 两 个 
学 科 领 域 ,有 些 数据 机 构 则 关注 众多 学 科 领 域 ,其 数据 
资源 较为 丰富 。 


3 ”科学 数据 质量 评价 指标 分 析 


3.1 制定 数据 管理 计划 

《科学 数据 管理 办 法 》 强 调 法 人 单位 和 各 级 主管 
部 门 制定 好 科学 数据 管理 计划 ,并 履行 科学 数据 管理 
的 职责 。 该 阶段 主要 任务 是 计划 好 如 何 描述 和 存 
储 数据 , 即 有 完整 的 元 数据 标准 ,例如 定义 数据 类 型 、 
格式 等 ;以 及 在 整个 数据 生命 周期 过 程 中 如 何 管理 \ 访 
问 和 共享 数据 ,如 规定 数据 管理 的 职责 分 配 ,确保 有 相 
应 的 专业 人 员 来 执行 数据 管理 计划 。 

从 科学 数据 管理 计划 可 以 看 出 科研 人 员 和 研究 组 
织 在 数据 管理 方面 的 意识 和 能 力 , 对 调研 结果 进行 整 
理 分 析 后 发 现 ， 这 一 阶段 的 指标 内 容 主 要 与 数据 管理 
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一 27. 
表 1 15 家 科学 数据 机 构 基本 情况 
机 构 ee i es 
编号 名 称 责任 者 数据 类 型 学 科 领 域 数据 开放 网 址 
1 美国 国家 海洋 和 大 气管 理 ( National Oceanic ”美国 国家 环境 信息 ”科技 数据 地 球 物理 地质、 https://www. cio. noaa. gov/services _ 
and Atmospheric Administration, NOAA) 中 心 气象 及 环境 科学 等 ” programs/info_quality. html 
有 2 美国 地 球 资源 观测 与 科技 中 心 (Earth Re- ”美国 地 质 调查 局 科技 数据 地 质 学 https://www. usgs. gov/centers/eros/ da- 
sources Observation and Science, EROS) ta-tools 
3 ”橡树 岭 国 家 实验 室 分布 式 活动 档案 中 心 ”美国 宇航 局 科技 数据 环境 .生态 https:// daac. ornl. gov/ 
(The Oak Ridge National Laboratory Distribu- 
ted Active Archive Center,ORNL DAAC) 
4 德 克 萨 斯 数据 仓储 (Texas Data Repository， ” 德 克 萨 斯 数字 图 书 ”科技 数据 、 社 综合 https://data. tdl. org/ 
TDR) 馆 会 .经济 数据 等 
5 纽 斯 卡尔 大 学 开放 数据 存储 库 ( Newcastle ” 纽 斯 卡尔 大 学 科技 数据 综合 https://data. ncl. ac. uk/ 
University Open Data Repository, NCL Data) 
6 社会 科学 数据 档案 (Social Science Data Ar ”加 州 大 学 洛杉矶 分 ”科技 数据 社会 科学 https://dataverse. harvard. edu/ data- 
chive ,SSDA) 校 图 书馆 verse/ssda_ucla 
2 大 气 辐射 测量 ( Atmospheric Radiation Meas- ”美国 能 源 部 科技 数据 综合 http://ade. arm. gov/discovery/# v/ 
于 urement ,ARM ) home/s/ 
> 深蓝 数据 (Deep Blue Data) 密歇根 大 学 科技 数据 综合 https://deepblue. lib. umich. edu/ data/ ? 
™ locale =en 
< 十 通用 和 蛋白质 资源 知识 库 (Universal Protein ”欧洲 生物 信息 研究 ”科技 数据 医药 卫生 https ://www. uniprot. org/ 
CN Resource Knowledgebase , UniProtKB ) 所 
到 是 球 数据 观测 网 ( Data Observation Network ”美国 国家 科学 基金 ” 科技 数据 综合 https: /www. dataone org/ 
A Earth , DataONE ) 会 
< 国家 基因 库 生 命 大 数据 平台 (China National ”深圳 国家 基因 库 科技 数据 生物 https://db. cngb. org/ datamart/ animal/ 
© GeneBank DataBase,CNGBdb) 
C9 国家 基因 组 科学 数据 中 心 (National Genom- ”中 国 科 学 院 北 京 基 “科技 数据 生物 https://bigd. big. ac. cn/ databases 
CN ics Data Center, NGDC) 因 组 研究 所 
明尼苏达 大 学 数据 仓储 (Data Repository for ”明尼苏达 大 学 科技 数据 综合 https://conservancy. umn. edu/ discover 
a University of Minnesota, DRUM) 
iP 英国 数据 档案 ( UK Data Archive, UKDA) 埃 塞 克 斯 大 学 综合 综合 https://beta. ukdataservice. ac. uk/ data- 
< catalogue/studies/#1? Search = &Page = 
l&Rows = 10&Sort = 0&DateFrom = 
© 440&DateTo =2019 
他 世界 数据 系统 (The World Data System of the ”国际 科学 理事 会 科技 数据 地 球 物理 http://www. icsu-wds. org/ services 
,全 International Science Council ,ICSU-WDS ) 


计划 (Data Management Plan ,DMP) 的 制定 有 关 。 其 中 
包括 以 下 4 个 方面 :DDMP 的 完整 性 。ORNL DAAC 
强调 提供 的 DMP 要 尽 可 能 包含 描述 数据 所 需 的 内 容 ， 
例如 对 特定 类 型 数据 要 有 精度 和 密度 的 合理 说 明 '”; 
SSDA 在 计划 阶段 认为 应 当 创建 全 面 的 数据 文档 来 解 
释 数 据 是 如 何 被 创建 的 ; ARM 规定 DMP 必须 描述 
数据 如 何 共享 和 保存 ,并 包含 个 人 隐私 和 机 密 信 息 方 
面 的 要 求 “ ; EROS 考虑 了 数据 管理 的 过 程 完整 性 和 
预算 开支 等 ” 。@ 数 据 管 理 职责 。EROS 在 这 阶段 的 
指标 说 明 比 较 典 型 ,其 认为 应 当 有 专业 人 员 进 行 数据 
管理 ;管理 职责 范围 应 当 明 确 ;应 当 符合 机 构 官 方 的 要 
求 ;确保 开发 和 维护 元 数据 在 内 的 数据 文档 ;制定 数据 
质量 标准 “ 。@DMP 的 价值 性 。SSDA 和 ARM 强调 
DMP 的 价值 性 ,前 者 认为 DMP 应 当 能 够 赢得 资助 者 的 
信服 和 支持 ” ;后 者 认为 DMP 要 具有 助力 科研 的 价 


值 ,并 应 当 通过 其 机 构 的 数据 价值 审核 程序 ”。 轩 
DMP 制定 是 便利 的 、 易 操作 的 。NCL Data 强调 要 提供 
多 种 DMP 格式 以 供 参考 ;提供 制定 DMP 的 培训 、 指 南 
或 帮助 ;提供 创建 DMP 的 链接 ;创建 DMP 过 程 中 提供 
联系 方式 以 供 咨询 ” 。 

在 制定 计划 阶段 对 DMP 本 身 的 评价 是 一 个 处 于 
演变 中 的 新 概念 ” ,一 份 好 的 DMP 文件 其 内 容 应 当 
对 数据 生命 各 个 周期 要 注意 的 事项 进行 说 明 ,并 体现 
具体 研究 项 目 及 资助 机 构 的 要 求 。 所 调研 机 构 对 这 一 
部 分 内 容 提 及 有 限 。 

3.2 数据 收集 管理 

我 国 各 级 科技 部 门 和 科研 人 员 逐 渐 认 识 到 科学 数 
据 的 重要 价值 ,科学 数据 是 新 一 轮 科技 创新 的 重要 基 
础 。 建 设 科 学 数据 中 心 离 不 开 对 科学 数据 的 收集 。 
《办 法 》 强 调 由 各 法 人 单位 承担 其 相关 领域 科学 数据 
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的 整合 汇 交 工作 ,各 单位 应 当 有 科学 数据 的 质量 控制 
体系 来 保证 数据 表达 的 准确 性 和 数据 可 用 性 。 经 调 
研 后 分 析 整 理 该 阶段 对 科学 数据 的 评价 指标 主要 有 以 
下 5 个 方面 : 

(1) 数据 收集 的 格式 要 求 。Deep Blue Data 和 
ORNL DAAC 建议 提交 的 数据 采用 非 专 有 格式 、 开 放 格 
式 ” ; UniProtKB 建议 使 用 符合 UniProtKB 要 求 的 数 
据 格式 ” ;DRUM 认为 提交 的 数据 应 当 符 合 其 给 定 的 
适合 访问 的 文件 格式 ,并 且 不 同 的 数据 类 型 有 不 同 的 
格式 规定 ” ;TDR 对 表格 数据 文件 有 格式 要 求 ,要 求 


有 可 发 现 性 (或 可 查找 性 ) ,可 访问 性 增值 性 、 互 操作 
性 等 。 

所 选取 的 15 家 数据 机 构 中 ,有 6 家 提 到 了 科学 数 
据 分 析 与 加 工 方面 的 指标 ,其 具体 指标 内 容 见 表 2。 
经 过 整理 后 发 现 ,该 阶段 的 指标 主要 可 以 归纳 为 4 个 
方面 :中 数据 创建 与 描述 。 其 内 容 有 创建 元 数据 的 方 
法 和 标准 、 开 发 数据 字典 文件 名 称 具 有 有 效 性 等 。® 
数据 处 理 。 其 内 容 有 数据 的 加 工 深度 .加工 效率 ;对 数 
据 的 分 类 ;数据 更 新 是 否 及 时 ;是 否 能 够 可 视 化 处 理 
等 。(3) 数 据 可 发 现 性 。 其 内 容 有 处 理 数据 的 代码 可 以 


提交 SPSS (POR 和 SAV 格式 ) .STATA \R data .CSV 等 
格式 ;NGDC 也 强调 数据 提交 要 采用 规定 的 标准 格 
二 

一 (2) 数据 审核 。 CNGBdb 标明 所 提交 的 数据 需要 
通过 MD5 校 验 数据 传输 的 完整 性 ,而 且 需 要 通过 元 数 
据 信息 和 伦理 批件 等 审核 ;ORNL DAAC 强调 要 
能 悉数 据 的 优先 领域 .科学 影响 和 社区 需求 来 确定 数 
提现 优先 级 祖 。 

(3 ) 对 数据 内 容 的 要 求 。 这 部 分 指标 主要 关注 所 
E 缚 数据 的 相关 性 、 完 整 性 和 准确 性 。 相 关 性 指标 包 

选 数据 是 否 被 判断 为 主题 相关 、 是 否 有 相关 性 判 
电压 准 ; 完 整 性 指标 包含 数据 有 完整 的 元 数据 描述 以 
项 站 容 的 完整 性 ,包括 DRUM 将 数据 按照 时 间 和 相关 
性 过 行 排 序 .Deep Blue Data 强调 元 数据 的 完整 性 、 
T 守 氏 要 求 元 数据 的 描述 符合 标准 .完整 不 漏 ™ ;UKDA 
强 凋 检 查 测 量 数据 的 准确 度 ,使 用 多 次 测量 观察 或 取 
样 其 及 专家 核对 等 方法 来 确保 数据 的 准确 性 ,还 提 到 
数据 和 元 数据 的 数字 化 程度 。 

(4) 数 据 表达 。ORNL DAAC 强调 数据 描述 清晰 
易于 理解 ” ;UKDA 建议 在 收集 过 程 中 尽量 使 用 受 控 
词汇 ,减少 手工 输入 ”1。 

(5) 数 据 重复 使 用 。 这 部 分 指标 主要 内 容 有 数据 
利用 的 可 重用 性 和 可 复制 性 。Deep Blue Data 建议 数 
据 包含 描述 性 元 数据 ,应 当 能 被 他 人 重复 使 用 ;Dat- 
aONE 建议 研究 成 果 可 以 被 他 人 复制 ”;DRUM 表示 
所 有 数据 都 要 接受 审查 以 确保 能 重新 使 用 ,没有 重用 
功能 的 数据 可 能 不 会 被 存储 库 接受 "1 。 

3.3 ”数据 分 析 与 加 工 管理 

数据 的 分 析 与 加 工 处 理 是 指 利用 数据 处 理 软 硬 件 
资源 ,针对 用 户 的 需求 ,对 有 关 数 据 进 行 加 工 或 分 析 处 
理 ,并 将 得 到 的 数据 加 工 产 品 和 分 析 处 理 结果 以 合适 
的 方式 提供 给 用 户 的 服务 。 科 学 数据 的 分 析 与 加 工 目 
的 是 挖掘 和 提升 科学 数据 的 产品 价值 ,使 科学 数据 具 


共享 ;数据 是 易于 检索 的 ;文件 名 是 有 效 的 等 。 外 数据 
可 利用 性 。 其 内 容 有 处 理 数 据 的 代码 可 供 他 人 使 用 ; 
数据 集 具 有 增值 性 等 。 
3.4 数据 保存 管理 

科学 数据 的 长 期 保存 要 求 存储 库 具 有 很 高 的 安全 
性 ,不 同 的 科学 数据 集 在 安全 性 指标 方面 有 不 同 的 内 
容 。 数 据 保存 对 存储 库 系统 有 技术 上 的 要 求 ,对 存储 
内 容 本 和 映 也 有 要 求 ,包括 保存 格式 和 数据 内 容 的 机 密 
性 ,完整 性 和 可 用 性 等 。 所 调研 的 数据 机 构 在 这 方面 
的 指标 可 以 划分 为 以 下 5 个 方面 :中 数据 保存 安全 性 。 
Deep Blue Data 提 到 存储 设施 应 当 具 有 适当 灾难 恢复 
功能 ,提供 比特 级 保护 ;强调 数据 转移 过 程 中 的 完整 性 
和 安全 性 '”;EROS 提 到 系统 的 安全 性 要 求 ,并 提出 应 
当 明 确 谁 来 负责 IT 安全 和 隐私 ,另外 强调 安全 协议 的 
重要 性 不 能 忽视 ;TDR 提出 科学 数据 安全 性 必须 考 
上 处 到 数据 的 备份 ,定期 检查 ,提供 资源 服务 密 钥 ”。 
@ 数 据 保 密 性 。NCL Data 提 到 在 存储 数据 时 应 当 采 用 
文件 加 密 技术 。@ 数 据 保存 的 易 操 作 性 。 易 操作 
性 强调 用 户 与 系统 的 互动 ,体现 在 用 户 遇 到 困难 时 是 
否 能 获取 帮助 。 例 如 NCL Data 提 到 遇 到 存储 问题 时 
可 提交 解决 申请 。@ 数 据 存 储 内 容 指标 。 经 调研 发 现 
该 部 分 指标 主要 关注 数据 内 容 是 否 仍 然 可 以 访问 ; 存 
赌 内 容 及 存储 系统 是 否 及 时 更 新 ;数据 是 否 仍然 具备 
利用 价值 ;数据 内 容 是 否 能 长 期 保存 ;数据 存储 量 大 小 
的 规定 ;提供 不 同 级 别 的 数据 保存 服务 等 。 包 数据 保 
存 格式 。 对 数据 保存 格式 的 要 求 ,格式 是 否 具有 可 移 
植 性 以 及 多 样 性 。 例 如 EROS 认为 数据 存储 格式 应 当 
具有 可 移植 性 ,多 年 以 后 仍然 可 以 使 用 ” 。 
3.5 数据 共享 与 利用 管理 
国外 积极 推动 科学 数据 共享 的 主要 动力 有 :中 推 
动 科 学 研究 ;@ 避 免 重复 研究 造成 资源 浪费 ;(8 有 效 
长 期 保存 科学 数据 ;由 促进 科学 研究 的 合作 ,提高 科研 
成 果 的 引用 率 和 影响 力 ”。 我 国 尚未 形成 有 效 的 数 
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江 洪 ， 王 春晓 . 基于 科学 数据 生命 周期 管理 阶段 的 科学 数据 质量 评价 体系 构建 研究 [J]. 图 书 情思 开 记 ,2020784 (10) :1 
S27 
表 2 科学 数据 机 构 在 数据 分 析 与 加 工 管理 阶段 的 指标 
数据 机 构 评价 指标 间 标 说 明 
NOAA 加 工程 度 对 数据 被 加 工 的 深度 进行 评价 
数据 分 类 有 无 数据 分 类 ,分 为 哪些 类 
及 时 性 更 新 的 及 时 性 
创建 元 数据 是 否 给 出 创建 元 数据 的 方法 [1 
EROS 数据 加 工效 率 使 用 脚本 语言 自动 化 处 理 和 简化 文档 ;是 否 有 其 他 提高 处 理 效率 的 措施 
可 读 性 代码 可 读 性 文档 易 懂 ; 应 当 支 持 开 放 源 码 软 件 开 发 
可 重用 性 人 允许 别人 重新 运行 你 的 分 析 ; 代 码 建议 有 版 本 控制 
可 达 性 (accessibility ) 处 理 的 代码 是 否 放 到 公共 存储 库 ; 确 保 数 据 是 可 用 的 
文档 管理 指标 应 当 维 护 数据 处 理 和 分 析 活 动 的 文档 ;应 当 有 帮助 这 一 阶段 流程 再 现 的 补充 材料 
数据 标准 指标 应 当 创建 并 依据 数据 标准 ;数据 文件 的 创建 格式 要 求 ; 数 据 组 织 应 当 有 逻辑 且 易 于 发 现 和 访问 
可 发 现 性 或 易于 检索 性 应 当 使 用 与 数据 集 相 关 的 关键 字 ; 文 件 名 称 是 否 具 有 一 致 性 [和 1 
ORNL DAAC 代码 可 读 性 在 代码 中 编写 注释 ,利于 其 他 人 使 用 
可 复制 性 处 理 的 数据 的 代码 是 可 以 复制 给 别人 使 用 的 
= 及 时 性 数据 应 当 及 时 更 新 
> 数据 字典 开发 明确 定义 参数 、 属 性 、 变 量 的 数据 字典 
TT 互 操作 性 遵循 为 数据 互 操作 性 建立 的 标准 ,如 气候 和 预测 (CF) 元 数据 约定 [2] 
< TDR 便利 性 提供 内 置 的 数据 可 视 化 工具 及 其 使 用 指南 [441 
局 ARM 及 时 性 及 时 甚至 实时 将 数据 处 理 的 结果 反馈 给 相关 人 员 ;定期 处 理 、 整 理 和 存档 电子 仪器 现场 数据 
© 描述 完整 性 对 仪器 (或 系统 ) VAP 技术 .QME 技术 或 其 他 方法 的 完整 描述 
< 十 有 效 性 文件 名 的 有 效 性 ;算法 高 效 
© 准确 性 对 科学 数据 的 一 些 概念 进行 明确 的 定义 [45] 
CO UKDA 可 扩展 性 研究 人 员 可 以 通过 添加 额外 的 变量 或 参数 来 扩展 可 能 的 应 用 程序 ,从 而 为 他 们 的 数据 集 增加 重要 的 价值 :33] 


握 屠 放 机 制 ,各 个 政府 部 门 .科研 机 构 之 间 的 数据 共享 
俯 训 在 在 壁 全 ,形成 了 “数据 孤岛 " " 。 经 调研 发 现 ， 
所 调研 的 机 构 在 该 阶段 涉及 到 的 指标 内 容 主 要 有 数据 
活 亿 数据 引用 .数据 开放 程度 ,数据 影响 力 .数据 使 用 
的 办 法 性 以 及 数据 共享 的 隐私 问题 等 6 个 方面 :OD 数 
发 布 。EROS 强调 要 有 发 布 格式 要 求 ;发 布 的 产品 要 
包 合 规定 的 要 求 , 即 具有 完整 性 要 求 ;发 布 之 前 应 当 审 
查 数据 的 准确 性 .一致 性 和 完整 性 等 “。 回 数据 引 
用 。 这 方面 主要 关注 DOI 问题 ,如 是 否 有 统一 的 数据 
引用 标准 或 规范 ;是 否 为 数据 分 配 DOL; 应 当 符合 数据 
引用 格式 ;给 出 引用 数据 的 指南 或 帮助 等 。@ 数 据 开 
放 程度 。ICSU-WDS 认为 ,为 公共 领域 使 用 的 数据 .元 
数据 产品 和 信息 应 根据 响应 的 法 律 法 规 充 分 实现 公 
开 共享 ” ;ARM 和 DRUM 缘 支 持 免费 开放 。@ 数 据 


应 当 标记 敏感 信息 或 受 限 制 的 信息 只 
4 ”科学 数据 质量 评价 模型 构建 


笔者 从 科学 数据 管理 的 生命 周期 各 阶段 的 视角 ， 
对 调研 结果 进行 分 析 归 纳 ,从 制定 数据 管理 计划 ` 数 据 
收集 管理 .数据 分 析 与 加 工 管理 .数据 保存 管理 和 数据 
共享 与 利用 管理 5 个 维度 ,结合 系统 性 、 科 学 性 、 简 明 
性 ,通用 性 和 可 操作 性 等 评价 指标 体系 应 有 的 要 求 , 构 
建 了 科学 数据 质量 评价 模型 ( 见 表 3 ) 。 本 文 的 指标 是 
基于 所 调研 的 15 家 机 构 的 做 法 进行 抽象 归纳 的 ,未 有 
超出 这 些 机 构 做 法 的 指标 (相关 机 构 已 在 表 3 中 注 
明 ) 。 该 指标 体系 共 分 为 3 个 指标 层次 ,所 构建 指标 是 
总 -分 的 逻辑 关系 ,力求 充分 体现 科学 数据 管理 生命 
周期 各 阶段 的 特性 。 同 时 ,笔者 在 调研 过 程 中 发 现 ,可 


O 


影响 力 。NOAA 强调 数据 受众 范围 和 传播 的 及 时 性 ;并 
评估 其 是 否 对 重要 的 公共 部 门 或 企业 的 决策 产生 实质 
影响 中。@ 数 据 使 用 合法 性 和 数据 共享 的 隐私 问题 。 
TDR 强调 数据 使 用 者 不 得 侵犯 他 人 权利 ;尊重 他 人 隐 
私 ;遵守 所 有 适用 的 当地 、 州 .国家 和 国际 法 律 及 德 克 
萨 斯 数字 图 书馆 使 用 协议 规定 ;ICSU-WDS 强调 数 
据 应 当 符 合 国际 伦理 行为 研究 标准 ;遵守 国家 或 国际 
法 律 和 政策 ;数据 共享 应 当 确保 一 定 的 隐私 ;适当 情况 


用 性 ,完整 性 和 客观 性 这 3 个 指标 ,是 贯穿 科学 数据 管 
理 生命 周期 各 阶段 的 科学 数据 质量 评价 的 共同 指标 ， 
NOAA 对 这 3 个 指标 的 指标 说 明 较 为 典型 ( 见 表 4)。 
在 对 科学 数据 质量 进行 评价 时 ,不 仅 要 考虑 每 个 生命 
周期 阶段 的 个 性 指标 内 容 , 更 要 结合 可 用 性、 完整 性 及 
客观 性 这 3 项 内 容 。 因 此 在 构建 评价 模型 的 过 程 中 也 


结合 了 这 3 个 指标 来 制定 每 一 个 指标 的 具体 评价 
内 容 。 
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表 3 科学 数据 质量 评价 指标 体系 
一 级 指标 (机 构 编号 ) 二 级 指标 ( 机 构 编号 ) 三 级 指标 评价 指标 描述 


制定 数据 管理 计划 (2,3 ,5 ,6 ,7) Al DMP 文件 的 制定 (3,5,6,7) ”All DMP 的 完整 DMP 包含 符合 要 求 的 所 有 所 需 信息 的 程度 
A12 DMP 的 准确 必 DMP 语句 描述 清晰 ,内 容 准确 的 程度 


Al3 DMP 制定 的 易 操 作 性 DMP 制定 流程 的 便利 程度 (例如 提供 制定 DMP 
的 指南 ,培训 或 帮助 以 及 工具 链接 等 ) 


A14 DMP 的 价值 性 DMP 获得 资助 者 认可 和 信服 的 程度 
A15 DMP 的 规范 性 符合 DMP 制定 标准 和 格式 要 求 的 程度 
A2 数据 管理 职责 (2) A21 数据 管理 的 专业 性 专业 人 员 参 与 数据 创建 或 管理 的 程度 
A22 管理 职责 明确 性 要 明确 数据 管理 的 工作 内 容 和 职责 范围 
数据 收集 管理 B1 数据 提交 过 程 B11 数据 格式 规范 性 提交 格式 符合 系统 要 求 的 程度 
(3,4,8,9,10,11,12,13 ,14) (3,4,8,9,10,13) 
B12 数据 格式 多 样 性 为 不 同 数据 类 型 提供 不 同 的 数据 格式 
B13 数据 提交 便利 性 数据 所 有 者 进行 数据 提交 的 便利 程度 
B14 可 重用 性 所 提交 的 数据 能 被 他 人 复制 使 用 的 程度 
B2 数据 内 容 (4,8,11,12,13,14) ”B21 数字 化 程度 所 收集 的 数据 的 数字 化 水 平 
B22 数据 完整 性 数据 传输 的 完整 程度 和 数据 描述 的 完整 程度 
“oo B23 数据 内 容 准确 性 数据 内 容 的 准确 真实 程度 
~ B24 相关 性 所 收集 的 数据 内 容 与 系统 要 求 的 主题 的 相关 程度 
™ B3 数据 表达 (3 ,14) B31 可 理解 性 数据 的 表达 在 多 大 程度 上 能 使 用 户 理解 以 及 机 器 
< 二 可 读 程 度 
CN B32 数据 表达 的 规范 性 数据 表达 的 标准 化 程度 (例如 是 否 使 用 受 控 词汇 ) 
疾 电 人 析 与 加 工 管理 (1.2.3 ,4,7,14) C1 数据 创建 (1,2,3) C11 元 数据 创建 标准 化 元 数据 创建 过 程 有 标准 可 循 
OO C12 数据 文件 有 效 性 所 创建 的 数据 文件 的 格式 .名称 的 有 效 程度 
< 十 C13 数据 字典 应 当 开发 创建 数据 字典 
全 0 a 对 数据 的 加 工 深度 进行 评价 
CD (1,2,3,4,7,14) 
CN C22 数据 加 工效 率 数据 加 工 的 速度 和 数据 量 的 大 小 
© C23 互 操作 性 数据 在 多 大 程度 上 遵循 数据 互 操作 性 标准 
CN C24 数据 可 视 化 系统 能 够 为 数据 提供 可 视 化 处 理 的 程度 
~ C25 数据 更 新 及 时 性 数据 能 够 及 时 更 新 和 维护 的 时 间 周期 
:Eo C26 可 扩展 性 能 够 在 多 大 程度 上 添加 额外 的 措施 来 扩展 可 能 的 
>< 应 用 程序 ,从 而 增加 数据 集 的 价值 
(如 数据 保存 管理 (2 ,4,5 ,8) D1 存储 系统 (2,4,5 ,8) p11 安全 性 系统 能 提供 数据 安全 保存 的 程度 
CS D12 可 迁移 性 数据 在 受到 安全 威胁 时 可 以 迁移 的 程度 
CS D13 可 恢复 性 系统 具备 的 灾难 恢复 程度 
© D14 保密 性 数据 符合 系统 要 求 的 保密 程度 
D15 一 致 性 数据 的 属性 在 不 同系 统 中 相符 合 的 程度 
D16 存储 量 系统 能 提供 多 大 的 数据 存储 容量 
D17 格式 规范 性 符合 系统 要 求 的 数据 保存 格式 的 程度 
pi8 持久 性 数据 内 容 能 够 在 多 长 时 间 范围 内 完整 并 可 持续 地 
保存 
D2 存储 操作 (4,5) D21 数据 备份 应 当 定期 检查 和 安全 备份 
D22 便利 人 数据 存储 过 程 中 提供 帮助 .指南 或 培训 的 程度 
D23 解决 问题 的 效率 数据 存储 过 程 中 解决 问题 的 有 效 程度 
数据 共享 与 利用 管理 (1,2,4,7,13 ,15) El 数据 共享 (4,7,13 ,15) El11 数据 开放 程度 数据 在 多 大 程度 上 支持 用 户 开放 获取 
E12 合法 人 数据 的 共享 应 当 尊重 他 人 权利 ,并 遵守 相关 法 律 
法 规 
E13 免费 性 数据 可 以 免费 获取 的 程度 
E14 隐私 性 符合 数据 共享 对 隐私 保护 的 要 求 的 程度 
15 数据 发 布 规范 怕 数据 产品 的 发 布 符合 规范 要 求 的 程度 
E2 数据 利用 (1,2,15) E21 可 访问 性 用 户 能 获得 的 数据 访问 权限 的 程度 以 及 在 特定 环 
境 中 数据 可 以 访问 的 程度 
E22 可 引用 性 数据 能 被 用 户 规范 性 引用 的 程度 ,应 当 为 数据 分 
配 DOI 
E23 数据 利用 率 数据 被 访问 下载 和 使 用 的 情况 
E24 数据 影响 力 数据 传播 的 广泛 程度 和 对 决策 产生 的 实质 影响 
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表 4 贯穿 科学 数据 管理 生命 周期 各 阶段 的 科学 数据 质量 评价 的 共同 指标 


指标 说 明 


可 用 性 以 用 户 为 中 心 .容易 访问 \ 容 易 阅读 和 理解 .高 透明 度 .提供 数据 背景 资料 适应 各 种 操作 系统 11] 


客观 性 ”数据 准确 性 (信息 的 不 精确 性 或 误差 在 可 接受 的 范围 


内 , 且 符 合 通常 接受 的 科学 


.财务 和 统计 标准 ) .来源 可 靠 .数据 描述 清晰 ,数据 可 追 畴 上 1 


完整 性 数据 的 完整 性 不 被 不 适当 的 访问 所 修改 破坏 ;符合 内 部 安全 标准 1 


构建 科学 数据 质量 评价 指标 体系 是 科学 数据 评价 
和 管理 的 重要 工作 ,本 文 构建 的 指标 体系 考虑 到 数据 
生命 周期 各 阶段 的 特征 和 目标 ,以 期 能 为 科学 数据 机 
构 平台 建立 科学 数据 评价 体系 提供 参考 和 补充 。 因 为 
该 指标 体系 涉及 到 科学 数据 生命 周期 管理 的 各 个 阶 
段 ,在 实际 操作 中 ,科学 数据 机 构 可 以 根据 所 辖 数据 的 
奖 于 特征 和 数据 管理 要 求 等 来 具体 借鉴 相应 的 指标 
构建 适用 于 本 机 构 的 评价 指标 。 本 文 构建 的 指标 体系 

在 实验 数据 不 充分 .分 析 不 够 系统 等 问题 ,下 一 阶 
段 的 研究 目标 则 是 充分 论证 本 指标 体系 的 科学 性 ,以 
od 数据 质量 评价 指标 体系 为 基础 ,使 
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Research on the Construction of Scientific Data Quality Evaluation System Based 
on Scientific Data Lifecycle Management Phases 
Jiang Hong Wang Chunxiao'” 
' Wuhan Library, Chinese Academy of Sciences, Wuhan 430071 
”Department of Library, Information and Archives Management, School of Economics and Management, 
University of Chinese Academy of Sciences, Beijing 100190 
Abstract: | Purpose/ significance | The evaluation indexes of scientific data quality from 15 scientific data cen- 
ters at home and abroad are mainly selected in order to screen the common indexes that can objectively reflect the 
quality of scientific data and build a universal evaluation index model of scientific data quality. | Method/ process | 
By using the methods of document investigation, web survey and content analysis, the evaluation indexes of scientific 
data of 15 scientific data centers were sorted out, and the evaluation indexes of existing scientific data institutions 
were understood. | Result/conclusion | Tt structures a scientific data quality evaluation index framework based on 5 
Ehases of data lifecycle management, which comprise data management plan, data collection management, data anal- 
1s and processing management, data storage management, data sharing and utilization management, and then pro- 
Gides a reference for the establishment of decision-oriented evaluation system of scientific data center in China and lo- 
scientific data centers. 
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及 《联合 行动 计划 》, 自 觉 坚 守 学 术 道德 ,坚决 抵制 学 术 不 端 。《 图 书 情报 工作 》 对 一 切 涉嫌 抄袭 、 和 窃 等 各 种 学 术 不 
端 行为 的 论文 实行 零 容 忍 ,并 采取 相应 的 惩戒 手段 。 
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